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serveur, on tente d'associer une forme mSmorisee au signal recu. 



(57) Abstract: The invention relates 
to a distributed speech recognition 
method comprising at least one user 
terminal and at least one server which 
can communicate with each other 
by means of a telecommunication 
network. The inventive method 
comprises the following steps 
consisting in: at the user terminal, 
attempting to associate a saved form 
with the signal to be recognised 
and, independently of said step, 
transmitting a signal to the server, 
indicating the signal to be recognised; 
and, at the server, attempting to 
associate a saved form with the signal 
received. 

(57) Abrege : Proc6d6 de 
reconnaissance de parole distribuee, 
comportant au moins un terminal 
utilisateur et au moins un serveur 
aptes a communiquer entre eux 
par rintermecliaire d'un r£seau de 
telecommunications, selon lequel 
au niveau du terminal utilisateur, 
on tente d'associer une forme 
m£morisee au signal a reconnaitre 
; et ind6pendamment de l'etape de 
tentative d'association d'une forme 
m^morisee, on 6met un signal a 
destination du serveur indiquant le 
signal a reconnaitre. Au niveau du 
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PROCEDE DE RECONNAISSANCE DE PAROLE DISTRIBUEE 



La presente invention est relative au domaine de la commande vocale 
duplications, exercee sur des terminaux utilisateurs, grace a la mise en 
oeuvre de moyens de reconnaissance de la parole. Les terminaux utilisateurs 
consideres sont tous les dispositifs dotes d'un moyen de capture de la parole, 
5 communement un microphone, possedant des capacites de traitement de ce 
son et relies a un ou des serveurs par un canal de transmission. II s'agit par 
exemple d'appareils de commande, de tetecommande utilises dans des 
applications domotiques, dans des automobiles (commande d'auto-radio ou 
d'autres fonctions du vehicule), dans des PC ou des postes telephoniques. Le 

10 champ des applications concernees est essentiellement celui ou I'utilisateur 
commande une action, demande une information ou veut interagir a distance 
en utilisant une commande vocale. L'utilisation de commandes vocales n'exclut 
pas I'existence dans le terminal utilisateur d'autres moyens d'action (systeme 
multi-modal), et le retour d'informations, d'etats ou de reponses peut egalement 

15 se faire sous forme combinee visuelle, sonore, olfactive et tout autre moyen 
humainement perceptif. 

De maniere generate, les moyens pour la realisation de la 
reconnaissance de parole comprennent des moyens d'obtention d'un signal 
audio, des moyens d'analyse acoustique qui extraient des parametres de 

20 moderation et enfin des moyens de reconnaissance qui comparent ces 
parametres de modelisation extraits a des modeles, et proposeht la forme 
memorisee dans les modeles qui peut etre associee au signal de la fagon la 
plus probable. Optionnellement des moyens de detection d'activite vocale VAD 
(" Voice Activation Detection ") peuvent etre utilises, lis assurent la detection 

25 des sequences correspondant a de la parole et devant etre reconnues. lis 
extraient du signal audio en entree, en-dehors des periodes d'inactivite vocale, 
des segments de parole, qui seront ensuite traites par les moyens d'extraction 
de parametres de modelisation. 
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Plus particulierement, I'invention porte sur les interactions entre les 
trois modes de reconnaissance de la parole dits embarque, centralist et 
distribue. 

Dans un mode de reconnaissance de parole embarquee, I'ensemble 
5 des moyens pour effectuer la reconnaissance de parole se trouvent au niveau 
du terminal utilisateur. Les limitations de ce mode de reconnaissance sont done 
liees notamment a la puissance des processeurs embarques, et a la memoire 
disponible pour stacker les modules de reconnaissance de parole. En 
contrepartie, ce mode autorise un fonctionnement autonome, sans connexion a 

10 un serveur, et a ce titre est voue a un fort developpement lie a la reduction du 
cout de la capacite de traitement. 

Dans un mode de reconnaissance de la parole centralisee, toute la 
procedure de reconnaissance de parole et les modeles de reconnaissance se 
trouvent et s'executent sur une machine, appelee generalement serveur vocal, 

15 accessible par le terminal utilisateur. Le terminal transmet simplement au 
serveur un signal de parole. Cette methode est utilisee notamment dans les 
applications offertes par les operateurs de telecommunication. Un terminal 
basique peut ainsi acceder a des services evolues, actives a la voix. De 
nombreux types de reconnaissance de parole (robuste, flexible, tres grand 

20 vocabulaire, vocabulaire dynamique, parole continue, mono ou multi locuteurs, 
plusieurs langues, etc ) peuvent etre implements dans un serveur de 
reconnaissance de parole. En effet, les machines centralisees ont des 
capacites de stockage de modeles, des tallies de memoire de travail et des 
puissances de calcul importantes et croissantes. 

25 Dans un mode de reconnaissance de parole distribute, les moyens 

d'analyse acoustique sont embarques dans le terminal utilisateur, les moyens 
de reconnaissance etant au niveau du serveur. Dans ce mode distribue, une 
fonction de debruitage associee aux moyens d'extraction des parametres de 
modelisation peut etre avantageusement realisee a la source. Seuls les 

30 parametres de modelisation sont transmis, ce qui permet un gain substantiel en 
debit de transmission, particulierement interessant pour les applications 
multimodales. De plus, le signal a reconnaitre peut etre mieux protege contre 
les erreurs de transmission. Optionnellement on peut aussi embarquer la 
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detection d'activite vocale (VAD) pour ne transmettre les parametres de 
modelisation que durant les sequences de parole, ce qui a pour avantage de 
reduire de maniere importante la duree de transmission active. La 
reconnaissance de parole distribute permet en outre de vthiculer sur le meme 
5 canal de transmission des signaux de parole et de donntes, notamment texte, 
images ou videos. Le reseau de transmission peut etre par exemple de type IP, 
GPRS, WLAN ou Ethernet. Ce mode permet tgalement de beneficier de 
procedures de protection et de correction contre les pertes de paquets 
constituant le signal transmis a destination du serveur. Cependant il necessite 
10 la disponibilite de canaux de transmission de donnees, avec un protocole strict 
de transmission. 

L'invention propose un systeme de reconnaissance de parole 
comportant des terminaux utilisateurs et des serveurs combinant les differentes 
fonctions offertes par les modes de reconnaissance de parole embarquee, 
15 centralisee et distribute, pour offrir le maximum d'efficacitt, de contort et 
d'ergonomie aux utilisateurs de services multi modaux ou la commande vocale 
est utilisee. 

Le brevet US 6 487 534-B1 decrit un systeme de reconnaissance de 
parole distribute comportant un terminal utilisateur disposant des moyens de 

20 detection d'activite vocale, de moyens d'extraction des parametres de 
modelisation et de moyens de reconnaissance. Ce systeme comprend en outre 
un serveur disposant egalement de moyens de reconnaissance. Le procedt 
decrit est consiste a effecteur une premiere phase de reconnaissance au 
niveau du terminal utilisateur. Puis en fonction des resultats de cette premiere 

25 phase, les parametres de modelisation calcults au niveau du terminal peuvent 
etre alors envoyes a destination du serveur, afin notamment de determiner 
cette fois grace aux moyens de reconnaissance du serveur, une forme 
memorisee dans les modeles de celui-ci et associee au signal envoye. 

Le but vise par le systeme decrit dans le document cite est de diminuer 

30 la charge au niveau du serveur Cependant il s'ensuit que la reconnaissance 
s'effectue au mieux apres le temps necessaire a la premiere phase dans le 
terminal. Lorsqu'une deuxieme phase doit avoir lieu, le temps de 
reconnaissance total est egal au temps de reconnaissance de la premiere 
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phase ajoute a celui de la seconde phase. 

Un but de la presente invention est de proposer un proced6 qui vise a 
optimiser le temps necessaire a la reconnaissance de parole, et done a la 
realisation de Taction demandee par I'utilisateur. 
5 Suivant un premier aspect, I'invention propose un precede de 

reconnaissance de parole distribute, comportant au moins un terminal 
utilisateur et au moins un serveur, aptes a communiquer entre eux par 
I'intermediaire d'un rtseau de telecommunications, selon lequel au niveau du 
terminal utilisateur, on realise au moins les etapes suivantes : 
10 - obtenir un signal audio a reconnaTtre ; et, 

- calculer des parametres de mod6lisation du signal audio a 
reconnaTtre; et, 

- tenter d'associer une forme memorisee aux parametres de 
moderation; et, 

15 - ind6pendamment de I'etape de tentative dissociation d'une 

forme memorisee, emettre a destination du serveur un signal indiquant 
le signal audio a reconnaTtre; 

et au niveau du serveur, on realise au moins les etapes suivantes : 

- recevoir le signal emis par le terminal utilisateur ; 

20 - tenter d'associer une forme memorisee au signal re?u. 

Un procede selon I'invention permet d'eviter de cumuler un temps de 
traitement au niveau du terminal et un temps de traitement au niveau du 
serveur, et ainsi de diminuer le temps pour donner suite a la demande de 
I'utilisateur. 

25 II permet aussi de tirer avantage des avantages des caracteristiques 

des moyens de reconnaissance dont disposent respectivement le terminal et le 
serveur, notamment lorsque le signal a reconnaTtre est de nature indefinie pour 
determiner au plus vite la reponse a effectuer. 

Dans des modes de mise en oeuvre preferes, le signal emis par le 

30 terminal utilisateur a destination du serveur est selectionne parmi au moins le 
signal audio a reconnaTtre et un signal indiquant les parametres de 
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modelisation. Alors, si le signal regu est de type audio, le serveur calcule des 
parametres de modelisation du signal audio regu; et tente d'associer une forme 
memorisee aux parametres de modelisation du signal audio regu. Si le signal 
regu indique des parametres de modelisation, le serveur tente d'associer une 
5 forme memorisee auxdits parametres de modelisation. 

Le choix du signal transmis - soit le signal audio (compresse ou non), 
soit le signal d6livre par les moyens de calcul des parametres de modelisation 
du terminal - peut etre defini soit par le type d'applications en cours, soit par 
I'etat du reseau, soit suite a une coordination entre des moyens de controle 

10 respectifs du terminal et du serveur. 

Avantageusement, Tobtention au terminal du signal a reconnaTtre 
comporte une detection d'activite vocale appliquee a un signal audio d'origine 
pour produire le signal audio a reconnaTtre en debarrassant le signal d'origine 
de periodes d'inactivite vocale. Le signal a emettre sera done s6lectionn§ 

15 parmi ce signal audio debarrass§ de periodes d'inactivite vocale et le signal 
indiquant des parametres de modelisation. 

Dans un mode de mise en oeuvre du procede selon I'invention, le 
signal emis est selectionne un signal parmi au moins le signal audio d'origine, 
le signal audio representatif du signal d'origine debarrasse de periodes 

20 d'inactivite vocale apres detection vocale et le signal indiquant les parametres 
de modelisation. 

Avantageusement, si le signal regu est un signal audio debarrasse de 
periodes d'inactivite vocale, le serveur calcule des parametres de modelisation 
du signal regu et tente d'associer une forme memorisee aux parametres de 

25 modelisation du signal audio regu. Lorsque le signal regu est un signal de type 
audio, mais sur lequel il n'a pas ete realisee de detection d'activite vocale, le 
serveur realise une detection d'activite vocale appliquee au signal audio regu 
pour produire un signal audio a reconnaTtre en debarrassant le signal d'origine 
de periodes d'inactivite vocale. Puis il calcule des parametres de 

30 modelisation du signal audio a reconnaTtre. Enfin, il tente d'associer une forme 
memorisee aux parametres de modelisation. 

Avantageusement, on choisit la forme memorisee associee determinee 
au niveau du terminal quand elle existe. On choisit la forme memorisee 
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associee determinee la premiere. Ou encore on choisit la forme mSmorisee 
associee la meilleure selon un critere defini (par exemple, probability de 
vraisemblance). 

Suivant un deuxieme aspect, I'invention propose un terminal utilisateur 
5 pour mettre en ceuvre le precede de reconnaissance de parole distribute decrit 
ci-dessus. 

Suivant un troisieme aspect, I'invention propose un serveur pour mettre 
en ceuvre le procede de reconnaissance de parole distribute decrit ci-dessus. 

Dans un mode de realisation prefere, certains au moins des moyens 
10 pour realiser le traitement de la reconnaissance au niveau du terminal (moyens 
d'extraction de parametres ou des moyens de reconnaissance) ont ete 
ttlecharges par I'intermediaire du reseau de telecommunications, lis peuvent 
par exemple etre tefecharges par le serveur. 

D'autres caracteristiques et avantages de I'invention apparaTtront 
15 encore a la lecture de la description qui va suivre. Celle-ci est purement 
illustrative et doit etre lue en regard des dessins annexes sur lesquels la figure 
unique est un schema representant un exemple de terminal utilisateur et un 
exemple de serveur selon Tinvention. 

Le systeme represents sur la figure unique comporte un serveur 1 et 
20 un terminal utilisateur 2, qui communiquent entre eux par I'intermediaire d'un 
reseau (non represents) disposant de canaux pour la transmission de signaux 
de voix et de canaux pour la transmission de signaux de donnees. 

Le terminal 2 comporte un microphone 4, qui recueille la parole a 
reconnaitre d'un utilisateur sous forme d'un signal audio. Le terminal 2 
25 comporte egalement des modules 5, 6, 7. Le module de detection d'activite 
vocale VAD 5 assure la detection des sequences correspondant a de la parole 
et devant etre reconnues. Ce module 5 est par exemple congu pour dttecter 
rapidement des mots de commandes. Le module 6 effectue une analyse 
acoustique de fagon connue en soi : il calcule des parametres de moderation, 
30 tout en realisant une fonction de debruitage. 

Le module 7 execute un algorithme de reconnaissance de type connu, 
par exemple a base de modeles de Markov caches avec un vocabulaire de 
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taille reduite. Ce moteur de reconnaissance 7 peut fonctionner en mode 
monolocuteur, et necessite une phase d'apprentissage prealable a partir de la 
voix de I'utilisateur. 

Le terminal comprend un controleur 8 adapt§ pour selectionner, un 
5 signal audio parmi le signal audio en sortie du microphone 4, un signal 
representatif des segments de parole extraits par les moyens de detection 
d'activite vocale 5 et un signal indicatif des parametres de modelisation 6. 

Le terminal comprend en outre une interface 9 pour remission sur le 
reseau, a destination du serveur, du signal selectionne par le controleur 8. 

10 Le serveur 1 comporte une interface reseau 10 pour recevoir les 

signaux qui lui sont adresses et un controleur 1 1 qui analyse le signal regu et le 
dirige ensuite s6lectivement vers un module de traitement du serveur parmi 
plusieurs modules 12,13,14. Le module 12 est un detecteur d'activite vocale, 
qui assure la detection des segments correspondant a de la parole de fagon 

15 similaire au module 5. Toutefois, il peut etre different du module 5, et par 
exemple congu pour detecter rapidement des phrases entieres. Son temps de 
reaction peut done etre different de celui du module 5. Dans I'exemple present, 
son temps de reaction sera plus lent Le module 13 assure le calcul de 
parametres de modelisation de fagon semblable au module de calcul 6 du 

20 terminal. Toutefois, le modele de calcul peut etre different. Le module 14 
execute un algorithme de reconnaissance de type connu, par exemple a base 
de modeles de Markov caches avec un vocabulaire de taille quelconque, par 
exemple superieur a 100 000 mots. Ce moteur de reconnaissance 14 compare 
les parametres en entree a des modeles de parole qui represented des mots 

25 ou des phrases, et determine la meilleure forme associee, compte tenu de 
modeles syntaxiques qui decrivent les enchaTnements de mots attendus, de 
modeles lexicaux qui precisent les differentes prononciations des mots, et de 
modeles acoustiques representatifs des sons prononces. Ces modeles sont 
par exemple multilocuteurs, capables de reconnaitre, avec une bonne fiabilite, 

30 de la parole, independamment du locuteur. 

Le controleur 11 commande le module de VAD 12, le module de calcul 
de parametres 13 et le moteur de reconnaissance 14 de fagon a : 
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a/ Iorsque le signal regu par I'interface reseau 10 est de type audio et 
n'indique pas de segments de parole obtenus apres detection d'activite vocale, 
activer le module de detection d'activite vocale 12 en leur adressant le signal 
regu en tant que signal d'entree, puis adresser les segments de parole extraits 
5 par le module 12 au module de calcul de parametres de modelisation 13 en 
tant que parametres d'entree, puis adresser les parametres extraits par ce 
module 13 au moteur de reconnaissance 14 en tant que parametres d'entree ; 

b/ Iorsque le signal regu par I'interface de reception 10 indique des 
segments de parole apres detection d'activite vocale, activer le module de 

10 calcul de parametres de modelisation 13 en lui adressant le signal regu en tant 
que signal d'entree, puis adresser les parametres extraits par ce module 13 au 
moteur de reconnaissance 14 en tant que parametres d'entree ; 

c/ Iorsque le signal regu par Interface de reception 10 indique des 
parametres de modelisation, adresser lesdits parametres indiques au moteur 

15 de reconnaissance 14 en tant que parametres d'entree. 

Considerons une application dans laquelle I'utilisateur enonce : 
« appelle Antoine », Antoine figurant dans le repertoire local. Le signal audio 
correspondant obtenu par le microphone 4 du terminal est traite par le module 
VAD 5, qui en extrait des segments de parole qui sont a leur tour adresses aux 

20 module 6, qui calcule des parametres de modelisation. Ces parametres sont 
ensuite adresses au moteur de reconnaissance 7 pour y associer une forme 
issue du dictionnaire local. En parallele, le controleur 8 a selectionne un signal 
a emettre parmi le signal audio d'origine, un signal audio indiquant les 
segments de parole extraits du signal audio d'origine apres detection d'activite 

25 vocale et un signal indiquant les parametres de modelisation. Le signal 
selectionne est emis a I'aide de I'interface d'emission 9 a destination du 
serveur. 

Dans le mode de realisation considere, le signal selectionne par le 
controleur du terminal 8 est le signal audio d'origine, qui a ete envoye en 
30 direction du serveur des qu'il a ete acquis par le microphone 4. 

Le serveur receptionne le signal a reconnaTtre envoye par le terminal, 
et le traite comme indique en a/ ci-dessus. 
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Le processus de reconnaissance s'effectue ainsi de part et d'autre. Le 
terminal determine dans un temps T1 une forme associee F1 ; le serveur 
determine une autre forme associee F2 dans un temps T2 different de T1 . Une 
des deux formes est retenue selon un critere de choix. Le critere de choix peut 
5 est par exemple le suivant : on choisit la forme la plus rapidement trouvee et ce 
des qu'elle est trouvee, sans attendre la determination de I'autre forme. 
L'applicatif local au terminal passe alors a la phase applicative suivante. 

Puis I'utilisateur 6nonce « rechercher le message de Josiane ». 

La reponse au niveau du terminal n'est pas consistante et se solde par 
10 un rejet apres un temps T1\ La reconnaissance s'effectue en parallele au 
niveau du serveur et aboutit en un temps T2' a la determination d'une forme 
associee, qui va permettre de jouer le message demande par Putilisateur. 

Un procede de reconnaissance selon I'invention permet ainsi de 
combiner les avantages des systemes de reconnaissance au niveau du 
15 terminal et du serveur. Les mots courts sont rapidement determines par le 
moteur de reconnaissance 7 du terminal et les phrases plus complexes sont 
reconnues rapidement par le moteur de reconnaissance 14 du serveur. Le 
temps de traitement est d'autant plus optimise que les VAD respectives 
presentent des caracteristiques adaptees, la VAD 5 du terminal etant par 
20 exemple congue pour detecter rapidement des mots de commande et la VAD 
12 du serveur etant congue pour detecter rapidement des phrases. 

Le controleur du terminal 8 determine le signal a transmettre a 
destination du serveur par exemple en fonction de criteres de controle. Ces 
criteres peuvent par exemple etre lies a ('application concernee, ou a des 
25 problematiques de charges des differents moyens de traitement au niveau du 
terminal et du serveur (les moyens de controle respectifs peuvent cooperer), ou 
encore a des problematiques de disponibilite de canaux de transmission voix 
ou de canaux de transmission donnees. 

Par exemple, pour certains terminaux, le signal envoys sera 
30 systematiquement un signal indiquant des parametres de modelisation. Pour 
d'autres terminaux, le signal envoye dependra de Tapplication en cours. 

Dans un mode de realisation de I'invention, en cas de problemes de 
disponibilite de canaux de donnees ou du module de calcul 6 du terminal 
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10 

considere, le controleur 8 est adapte pour transmettre le signal audio (d'origine 
ou apres VAD). Ce signal audio pourra etre transmis sur les canaux de 
transmission de signaux de voix disponibles. 

Le facon de determiner la forme finalement retenue et qui sera 
5 exploitee lors de la poursuite de I'application, entre une forme associee fournie 
par le module de reconnaissance du serveur et une forme associee foumie par 
celui du terminal peut s'effectuer sur la base de differents criteres, qui peuvent 
varier d'un terminal a I'autre, mais aussi d'une application a I'autre ou d'un 
contexte donne a un autre. 

10 Ces criteres peuvent donner par exemple priorite a la reconnaissance 

effectuee au niveau du terminal, ou a la forme associee presentant le plus fort 
taux de probability, ou encore a la forme determinee la plus rapidement. Ces 
criteres de choix peuvent etre integres par exemple dans les controleurs 8, 1 1 
du terminal, ou du serveur. 

15 Le serveur selon I'invention est egalement apte a effectuer de la 

reconnaissance de parole sur un signal transmis par un terminal ne disposant 
pas de moyens d'extraction de parametres de modelisation, ni de moyens de 
reconnaissance (ou dont les moyens d'extraction ou de reconnaissance sont 
inactifs) et disposant eventuellement de VAD. 

20 Dans un mode de realisation, le moteur de reconnaissance 7 du 

terminal 2 est un programme executable telecharge, par exemple depuis le 
serveur par des moyens classiques de transfert de donnees. 

Avantageusement, pour une application donnee du terminal 2, des 
modules de reconnaissance du terminal peuvent §tre telecharges ou mis a jour 

25 au cours d'une session applicative connectee au reseau. 

D'autres ressources logicielles utiles a la reconnaissance de parole 
peuvent aussi etre telecharges depuis le serveur 1, comme le module 6 de 
calcul de parametres de modelisation ou le detecteur d'activite vocale 5. 

D'autres exemples pourraient etre decrits, mettant en oeuvre par 

30 exemple des applications liees aux voitures, a I'electromenager, multimedia. 

Comme presente dans les exemples de realisation ci-dessus decrits, 
un systeme selon I'invention permet d'utiliser dans un delai de traitement 
optimise pour un resultat optimise les differentes ressources necessaires au 
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traitement de la reconnaissance de la parole et presentes au niveau du 
terminal (par exemple par telechargement) et du serveur. 



WO 2004/088637 



PCT/FR2004/000547 



12 

REVENDICATIONS 

1 . Procede de reconnaissance de parole distribute, comportant au 
moins un terminal utilisateur et au moins un serveur aptes a communiquer 
entre eux par I'intermtdiaire d'un rtseau de telecommunications, selon lequel 
au niveau du terminal utilisateur, on realise au moins les etapes suivantes : 

5 - obtenir un signal audio a reconnaitre ; 

-calculer des parametres de modelisation du signal audio a 
reconnaitre; et 

-tenter d'associer une forme memorisee aux parametres de 
modelisation; et 

10 - independamment de Fetape de tentative dissociation d'une forme 

memorisee, emettre a destination du serveur un signal indiquant le signal audio 
a reconnaitre; 

et selon lequel au niveau du serveur, on realise au moins les etapes 
suivantes : 

15 - recevoir le signal emis par le terminal utilisateur ; 

- tenter d'associer une forme memorisee au signal regu. 

2. Procede de reconnaissance de parole distribute selon la 
revendication 1, selon lequel le signal emis par le terminal utilisateur a 

20 destination du serveur est selectionne parmi au moins le signal audio a 
reconnaitre et un signal indiquant les parametres de modelisation ; 

selon lequel si le signal regu est de type audio, le serveur calcule des 
parametres de modelisation du signal audio regu, et tente d'associer une forme 
memorisee aux parametres de modelisation du signal audio regu ; 

25 et selon lequel si le signal regu indique des parametres de 

modelisation, le serveur tente d'associer une forme memorisee auxdits 
parametres de modelisation. 
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3. Proc6de selon la revendication 1 ou la revendication 2, selon lequel 
I'obtention au terminal du signal a reconnaTtre comporte une detection 
d'activite vocale pour produire le signal audio a reconnaTtre sous forme de 
segments de parole extraits d'un signal audio d'origine en-dehors de periodes 

5 d'inactivite vocale. 

4. Procede selon la revendication 3, selon lequel le signal 6mis est un 
signal selectionne parmi au moins le signal audio d'origine, le signal audio a 
reconnaTtre sous forme de segments extraits apres detection vocale et le signal 

10 indiquant les parametres de modelisation. 

5. Procede selon la revendication 2 a 4, selon lequel lorsque le signal 
regu est de type audio : 

- si le signal audio regu est sous forme de segments de parole extraits 
1 5 apres detection vocale, le serveur calcule des parametres de modelisation du 

signal regu et tente d'associer une forme memorisee aux parametres de 
modelisation du signal audio regu ; 

- sinon le serveur realise une detection d'activite vocale appliquee au 
signal audio regu pour produire un signal audio sous forme de segments de 

20 parole extraits du signal audio regu en-dehors de periodes d'inactivite vocale, 
puis calcule des parametres de modelisation du signal audio et tente d'associer 
une forme memoris§e aux parametres de modelisation. 

6. Procede selon Tune quelconques des revendications precedentes, 
25 selon lequel on choisit la forme memorisee associee determinee au niveau du 

terminal quand elle existe. 

7. Procede selon les revendications 1 a 5 selon lequel on choisit la 
forme memorisee associee determinee le plus rapidement. 

30 
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8. Precede selon les revendications 1 a 5 selon lequel on choisit la 
forme memorisee associee la meilleure selon un critere de choix defini. 

9. Terminal utilisateur pour mettre en oeuvre un procede de 
5 reconnaissance de parole distribute selon Tune des revendications 1 a 8, 

comportant : 

des moyens d'obtention d'un signal audio a reconnaTtre ; 

des moyens de calcul de parametres de modelisation du signal 

audio; et 

10 - des moyens de controle pour selectionner un signal a emettre a 

destination du serveur parmi le signal audio a reconnaTtre et un signal indiquant 
les parametres de modelisation calcules, 

des moyens de reconnaissance pour associer au moins une 
forme memorisee a des parametres de modelisation calcules par les moyens 
15 de calcul. 

10. Terminal utilisateur selon la revendication 9 dans lequel les moyens 
d'obtention du signal audio a reconnaTtre comprennent des moyens de 
detection d'activite vocale pour produire le signal a reconnaTtre sous forme de 

20 segments de parole extraits d'un signal audio d'origine, en-dehors de periodes 
d'inactivite vocale. 

11. Terminal utilisateur selon la revendication 10 dans lequel les 
moyens de controle sont adaptes pour selectionner au moins un signal a 

25 emettre a destination du serveur parmi le signal audio d'origine, le signal audio 
a reconnaTtre sous forme des segments de parole extraits par les moyens de 
detection d'activite vocale et le signal indiquant les parametres de modelisation 
calcules. 
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12. Terminal utilisateur selon les revendications 9 a 11, dans lequel au 
moins une partie des moyens de calcul de parametres et des moyens de 
reconnaissance est t6lechargee depuis le serveur. 

5 13. Terminal utilisateur selon les revendications 9 a 12, comportant des 

moyens de determination de la forme memorisee a choisir entre les formes 
memorisees determinees respectivement au terminal et au serveur. 

14. Serveur pour mettre en oeuvre un procdde de reconnaissance de 
10 parole distribute selon Tune des revendications 1 a 8 comprenant : 

des moyens de reception en provenance d'un terminal utilisateur 
d'un signal selectionne audit terminal ; et 

- des moyens de reconnaissance pour associer au moins une forme 
memorisee a des paramdtres de modelisation en entree. 

15 

15. Serveur selon la revendication 14 comprenant en outre : 

des moyens de calcul de parametres de modelisation d'un signal 

d'entree; 

des moyens de controle pour commander les moyens de calcul et 
20 les moyens de reconnaissance de fagon a : 

lorsque le signal regu par les moyens de reception est de type 
audio, activer les moyens de calcul de parametres en leur adressant le signal 
selectionne en tant que signal d'entree, et adresser les parametres calcules par 
les moyens de calcul aux moyens de reconnaissance en tant que parametres 
25 d'entree, et, 

lorsque le signal selectionne regu par les moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. 
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16. Serveur selon la revendication 15 comprenant en outre des 
moyens de detection d'activite pour produire le signal a reconnaitre sous forme 
de segments de parole extraits d'un signal audio d'origine en-dehors de 
periodes d'inactivite vocale et dans lequel les moyens de controle sont adaptes 

5 pour commander les moyens de calcul de parametres et les moyens de 
reconnaissance lorsque le signal regu est de type audio de fagon a : 

si le signal regu de type audio est sous forme de segments de 
parole apres detection d'activite vocale, activer les moyens de calcul de 
parametres en leur adressant le signal regu en tant que signal d'entree, puis 
10 adresser les parametres calcules par les moyens de calcul de parametres aux 
moyens de reconnaissance en tant que parametres d'entree ; 

sinon activer les moyens de detection d'activite vocale du serveur 
en leur adressant le signal regu en tant que signal d'entree, puis adresser les 
segments extraits par les moyens de detection d'activite vocale aux moyens 
15 de calcul de parametres en tant que parametres d'entree, puis adresser les 
parametres calcules par les moyens de calcul de parametres aux moyens de 
reconnaissance en tant que parametres d'entree ; 

17. Serveur selon Tune des revendications 14 a 16, comprenant des 
20 moyens pour telecharger des ressources logicielles de reconnaissance vocale 

par i'intermediaire du r6seau de telecommunications a destination d'un 
terminal. 

18. Serveur selon la revendication 17, dans lequel lesdites ressources 
25 comprennent au moins un module parmi : un module de VAD, un module de 

calcul de parametres de modelisation d'un signal audio et un module de 
reconnaissance pour associer au moins une forme memorisee a des 
parametres de modelisation. 
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19. Serveur selon les revendications 14 a 18, comportant des moyens 
de determination de la forme memorisee a choisir entre les formes memorisees 
d6terminees respectivement au terminal et au serveur. 
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